AI与脑科学的互相促进:他相信,“读心”系统的实现可能只是时间问题
人工智能(AI)能够帮助我们理解大脑如何理解语言吗?神经科学能够帮助我们理解为什么AI和神经网络在预测人类感知方面是有效的吗?
来自得克萨斯大学奥斯汀分校的Alexander Huth 和Shailee Jain的研究表明以上两个问题都是可能的。
在2018年神经信息处理系统大会(NeurIPS)上的一篇论文中,学者们描述了使用人工神经网络预测不同脑区如何响应特定词语的实验结果,取得了比以往都要好的精度。
新的深度学习系统能够以高精度预测不同脑区如何响应特定的词语。该模型还发现位于听觉皮层的概念较少依赖于语境信息。
图片来源:网络
“当词语进入我们大脑中,我们知道了某人正在跟我们说些什么,而我们想要理解大脑内部是如何形成的,” Huth说道,一位来自UT Austin神经科学与计算机科学系的助理教授。“似乎应该存在一些专门的系统,但实际上,那并不是语言的工作方式。就像生物学里的任何东西一样,很难将其简化为一组简单的方程式。”
这项工作使用了一种被称为长短期记忆(long short-term memory , LSTM)的循环神经网络(recurrent neural network),它在计算中包括了每个单词与之前所出现单词的关系从而更好地保存上下文的内容(语境)。
这听上去很清晰,但数十年来神经科学实验只考虑了大脑对单个词语的响应,却忽视了单词之间能够形成单词链或语句的连接关系。(在《认知神经科学》期刊2019年3月的论文中Huth描述了进行“真实世界神经科学”的重要性。)
在这项工作中,研究人员进行了实验去测试并最终预测了当听到不同故事(具体说,即Moth Radio Hour,一个广播节目)的时候不同脑区将作何响应。他们使用了fMRI数据来获取大脑中血氧水平的变化情况,这种数据反映了神经元集群的活跃程度。这可以作为语言概念在大脑中所被表达的对应部分。
利用得克萨斯高级计算中心的超级计算机,他们使用LSTM方法训练了一个语言模型,该模型能够有效预测下一步将出现的词语——类似于Google自动完成搜索的任务,这是人类大脑特别擅长的。
“为了尝试预测下一个词语,这个模型必须隐含地学习所有关于语言如何工作的其他东西,而不是实际访问大脑或任何关于大脑的数据。”Huth说道,“比如,哪些词语倾向于跟在其它词语后边。”
基于这个语言模型和fMRI数据,他们训练出了这样一个系统——当大脑首次听到新故事中每个单词的时候它能够预测出大脑将如何作出响应。
过去的研究表明高效定位大脑的语言响应是可行的。然而,新研究表明在添加语境元素——提前出现多达20个词语的情况下,添加语境元素能够极大地促进大脑活动的预测效果。他们发现即使只使用了少量的上下文(语境),预测也能够改善。所提供的上下文(语境)越多,预测的精度就越好。
“我们的分析表明如果LSTM理解的词语越多,那么它预测下一个词语的能力就越好,”Jain说道,“这就意味着必须包括过去所有词语的信息。”
他们进行了进一步的研究,探索了哪些脑区对所包含的语境信息更加敏感。比如,他们发现位于听觉皮层的概念会更少地依赖于语境信息。
“如果你听到“小狗”这个词,那么这个区域(指听觉皮层)并不在乎之前出现过的10个词语是什么,它只会对“小狗”这个词语的声音作出响应”,Huth解释道。
另一方面,当包括更多语境信息时,处理更高级思维的脑区更容易准确响应。这支持了关于心智和语言理解的理论。
“人工网络的层次结构和大脑的层次结构之间存在非常好的对应关系,我们发现它们很有趣,”Huth说道。
自然语言处理(NLP)近年来已取得了极大的进步。但当涉及到回答问题、进行自然对话或者分析文本中的情绪时,NLP仍然有很长的路要走。研究人员相信他们的基于LSTM的语言模型能够对这些领域有所帮助。
LSTM(以及一般的神经网络)通过将高维空间中的值分配给各个组件(此处为单词)来工作,这样每个组件都可以通过其与许多其他事物的数千种不同关系而得到定义。
研究人员通过向模型中输入提取自Reddit帖子中的上千万词语来训练语言模型。然后他们的系统预测了六个被试的大脑中数千个体素(Vogels,三维像素)对模型和被试之前都没听说过的第二组故事作何响应。
因为他们对语境信息长度的作用以及神经网络中各层的作用都很感兴趣,所以他们给每个被试测试了60个不同参数(20个语境保留长度和3组不同的层维度)。
以上这些措施使得计算问题规模巨大,需要大量的计算能力、内存,存储和数据检索。如果进行处理,需要耗费大量的成本和时间,但现实并不允许他们这么做。这使得Huth和Jain考虑一种更简化的系统版本,从而取代开发一种语言预测模型并能将其应用于大脑。
他们开发了一款能够直接预测大脑响应的模型。他们称之为“end-to-end”系统,并希望能够在未来的研究中应用。这个模型能够直接改善其对大脑响应的表现。对大脑活动的错误预测会反馈到模型中并得到改进。
跨皮质的语境长度偏好。对一个被试中的每个体素计算其语境长度偏好的索引,并将其投射到该被试的皮质表面。蓝色所示的体素是使用较短语境建模效果最好的,而红色所示的是使用长语境建模效果最好的。该图片属于Huth 实验室,UT Austin。
“如果这起到作用了,那么这种网络像大脑那样学习阅读文本或吸收语言便成为可能,”Huth说道,“想象一下谷歌翻译,它能理解你正在说什么,而不是简单地学习一些规则而已。”
通过这样一种系统,Huth相信一个可将大脑活动转译成语言的“读心”系统的实现只是时间问题。同时,他们也从实验中获得了对神经科学和人工智能的理解。
“大脑是一个高效的计算机器,而人工智能的目标就是构建一个像大脑一样处理各种任务的机器,”不过,我们对大脑理解甚少。因此,我们尝试使用人工智能去探究大脑的工作机制,然后基于我们通过这种研究方法所获得的理解,以及理论神经科学,我们可以使用这些结果来开发更好的人工智能。
“这个想法就是,理解生物和人工认知系统,并且使用它们来理解和构建更好的机器。”
文章来源:
得克萨斯大学奥斯汀分校(UT Austin),得克萨斯高级计算中心
参考文献:
“Are We Ready for Real-world Neuroscience?”
Pawel J. Matusz, Suzanne Dikker, Alexander G. Huth, and Catherine Perrodin. Journal of Cognitive Neuroscience 2019 31:3, 327-338 doi:10.1162/jocn_e_01276
作者信息
编译:南樛木 (brainnews创作团队成员)
校审/排版:Simon (brainnews编辑部)
前 文 阅 读
1,《科学》重磅:小鼠研究提示氯胺酮可以修复抑郁“损伤”的大脑!
2,绝命毒师的“平反”?Nature: MDMA可以重启催产素介导的社会奖励学习的关键阶段
3,利用它,医生可精确调整深部脑刺激的位置和“剂量”| Nature Comunnications